【Andrew Ng 深度学习视频笔记】-lec2.3

本文记录第二课第三周视频中的概念

超参数调试

1、当参数较多时，用随机搜索可能比网格搜索更好，因为有些超参数没有太大的作用，会浪费搜索时间
2、可以使用逐步缩小搜索范围的方式来调式
3、对于有些参数范围可能从0.0001搜索到1的，一般的搜索方式平均切割，然后均匀的分配到里面，但比较合理的做法，
应该是0.0001~0.001,0.001~0.01,0.01~0.1,0.1~1这样的方式去平均切割搜索范围，因此可以使用类似：
$\lambda=10^r,r=-4*np.random.rand()$

batch normalization

可以对输入的X进行batch normal操作，在隐藏层，也可以对Z值进行batch normal
在隐层里进行归一化之后通常会进行一个变换$\alpha和\beta$，这两个值可以作为学习参数
进行batch normal的好处：
1、通过归一化，使得特征空间转化为相对规范的形状，有利于加速学习
2、通过对隐层的归一化，使得各层之间相对独立，不容易受前面输入的干扰
3、在通过mini-batch迭代时，由于计算均值和方差有一定的误差，一定程度上加入了一些干扰，有类似dropout的正则化功能

softmax回归

$t=e^t,a = \frac{t}{\sum{t_i}}$

loss function:$l = -\sum{y_ilog(\hat{y}_i})$
coss function:

$coss = \frac{\sum{l}}{m}$